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Сегментація мовних голосових сигналів 
за ознакою зміни диктора 


Запропоновано підхід до сегментації голосових мовних сигналів за ознакою зміни диктора та способи 
визначення позицій зміни диктора в голосовому мовному сигналі. Позиції зміни диктора визначаються за 
допомогою аналізу множин характеристичних векторів в околі паузи на основі Байєсівського інформаційного 
критерію. Покращення якості характеристичних векторів досягається за допомогою використання сегментів 
з рівнем енергії не нижче певного порогу. Також пропонується адаптивний підхід для автоматичного 
визначення пауз у мовному сигналі. 


Вступ 


Задача сегментації голосових сигналів за ознакою зміни диктора є важливою задачею 
цифрової обробки мовних голосових сигналів, що використовуються в інформаційних 
системах зберігання і пошуку мовної голосової інформації, системах автоматизованого 
комп'ютерного документування (1), системах розпізнавання мовної голосової інформації 
тощо. В системах зберігання і пошуку мовної голосової інформації сегментація за ознакою 
зміни диктора дозволяє пов'язувати сегменти звукових сигналів з певними дикторами, що 
дозволяє відтворювати пошук звукових фрагментів, що пов'язані з певною особою. В си- 
стемах автоматизованого стенографування така сегментація дозволяє підвищити ін- 
телектуальність розбиття вхідного сигналу на сегменти і створює можливість асоціації 
сегментів звукової інформації з дикторами під час обробки. В системах розпізнавання 
мовних сигналів визначення позицій зміни диктора дає можливість налаштовувати систему 
під акустичні особливості мови певного диктора, дає змогу підвищити якість розпізнавання. 

Задача сегментації голосового сигналу за ознакою зміни диктора здебільшого по- 
лягає у пошуку позицій у вхідному сигналі, в яких відбувається зміна диктора, за умови, 
що інформація про кількість дикторів у сигналі чи акустичні характеристики голосів 
дикторів заздалегідь не відома. Існує досить велика кількість підходів до задачі визначення 
зміни диктора. Здебільшого такі підходи базуються на порівнянні множин характеристич- 
них ознак в сусідніх ділянках вхідного сигналу. При цьому як характеристичні ознаки ви- 
користовуються, як правило, вектори коефіцієнтів мел-кепстр. Інколи як додаткові ознаки 
також використовують енергію сигналу, максимальні значення перетворення Фур'є на 
ділянці сигналу (|2|, частоту основного тону (пітч), коефіцієнти лінійного передбачення 
тощо. Підходи різняться в тому, як визначаються сусідні вікна сигналу, для яких буде 
проводитись порівняння, та мірами, за якими порівнюються множини характеристичних 
векторів, що відповідають ділянкам сигналу, що обробляється. 

Так, в роботах |З, 41 як міра, за якою порівнюються множини характеристичних 
векторів, використовується міра дивергенції, що дає змогу реалізації підходу до визначен- 
ня позиції зміни диктора у реальному часі. Проте, оскільки на кожний момент часу порів- 
нюються лише кілька сусідніх сегментів, побудувати вдалу модель диктора за умови 
обмеженої інформації важко. В роботі (5| пропонується як міру для порівняння мно- 
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жин використовувати зважену Евклідову відстань між векторами. За такого підходу ви- 
падкові збурення у вхідному сигналі можуть призвести до суттєвого погіршення якості 
визначення позицій зміни диктора. Для усунення цього недоліку в |6| запропоновано 
порівнювати характеристичні множини характеристичних векторів на основі попарного 
порівнювання векторів з різних множин 1 використовування медіани відстаней між 
окремими векторами як міри відмінності між множинами. Такий підхід дозволяє змен- 
шити вплив випадкових збурень на якість роботи алгоритму, проте, як показали екс- 
перименти, в результаті роботи підходу визначається досить велика кількість помилково 
визначених позицій зміни диктора (там, де система вважає, що відбувається зміна диктора, 
а насправді її немає). В роботі |7| пропонується вирішувати задачу про наявність зміни 
диктора між двома сегментами сигналу як задачу перевірки гіпотези про наявність зміни 
диктора, за умови, що множини характеристичних векторів є множинами нормально 
розподілених незалежних векторних випадкових величин. Як критерій до прийняття чи 
відхилення гіпотези використовується Байєсівський інформаційний критерій. Такий 
підхід дозволяє досить точно визначити позиції зміни диктора, проте оскільки на кож- 
ному кроці роботи алгоритму порівнюються два сусідні сегменти 1 не враховується на- 
явність пауз у сигналі, а також тому, що як критерій для прийняття рішення про наявність 
зміни диктора використовуються локальні максимуми Байєсівського інформаційного 
критерію, підхід може генерувати досить велику кількість помилково визначених змін 
дикторів. 

У даній роботі пропонується стратегія сегментації мовного голосового сигналу за 
ознакою зміни диктора. Підхід базується на визначенні позиції зміни диктора з вико- 
ристанням логарифмічного відношення правдоподібності і Байєсівського інформаційного 
критерію, проте на відміну від методів, запропонованих в |7|, пропонується шукати позиції 
зміни диктора лише в околі пауз у голосовому сигналі, що за умови точного визначення 
пауз дозволяє зменшити ризик помилкового визначення зміни диктора там, де їх немає. 
Для визначення пауз пропонується підхід, що базується на логарифмічній енергії сигналу 
з використанням автоматичного адаптивного визначення порогу. У характеристичних 
векторах пропонується використовувати, окрім коефіцієнтів мел-кепстр, пітч, що дозволяє 
підвищити точність визначення позиції зміни диктора, коли диктори відрізняються за 
статтю чи віком. 


Постановка задачі 


Для сегментації звукового сигналу за ознакою зміни диктора необхідно визначити 
позиції зміни диктора в сигналі. Покладемо, що зміна диктора відбувається в околі ді- 
лянки сигналу, де є пауза: перед тим як закінчує говорити один диктор і починає інший, є 
певний період мовчання. У справжніх сигналах це не завжди так, оскільки диктори 
можуть перебивати один одного, проте в такому випадку складно сегментувати сигнал, 
оскільки подібні ділянки неможливо однозначно віднести до жодного з сегментів. Тому 
для даної задачі обмеження про те, що зміна диктора відбувається в околі паузи, є при- 
пустимим. 

Отже, першою задачею є визначення ділянок сигналу, що відповідають паузам. Після 
того, як такі ділянки знайдені, необхідно певним чином порівняти характеристики 
звукового сигналу до і після паузи. Нехай Х «Їх, Х»,..-. Х,); - МноЖИНа характеристичних 


векторів, що відповідають певній ділянці сигналу до паузи, і У «у, У,» У,| - Множина 
характеристичних векторів, що відповідає ділянці сигналу після паузи. М, - кількість 
векторів у першій множині, М, - кількість векторів у іншій множині. Характеристичні 


вектори, які використовуються в задачі, обраховуються на досить короткому вікні сигналу, 


168 «Искусственньй интеллект» 372011 


Сегментація мовних голосовихсигналів за ознакою зміни диктора 3 Кк 


сусідні вікна певною мірою перетинаються між собою. Докладніше характеристичні 
вектори будуть описані нижче. Нехай 7 - Х / У - об'єднання множин характеристичних 
векторів, з кількістю точок М - У, - У,. Множини Х і У порівнюються між собою 


за допомогою певної міри відмінності, і якщо відмінність між цими множинами є до- 
статньо великою, то робиться висновок про те, що в околі паузи, що знаходиться між 
цими множинами, відбувається зміна диктора. В такому випадку, при сегментації, сегмент, 
що відповідає першому диктору, буде закінчуватися на початку даної паузи, а сегмент, 
що відповідає іншому диктору, буде починатися наприкінці даної паузи. 


панеарранния прое 


Рисунок І - Ділянки сигналу до і після паузи, що порівнюються 


У 


Необхідно знайти таку міру відмінності 1 таке значення порогу для міри відмінності, 
що при порівнюванні множин перевищення порогу буде відповідати зміні диктора 1 
дозволить максимізувати кількість коректно визначених змін диктора і мінімізувати кіль- 
кість помилок першого 1 другого роду (помилково визначених змін диктора 1 пропущених 
змін диктора). 


Визначення пауз у голосовому сигналі 


Оскільки позиції зміни диктора шукаються в околі пауз, необхідно визначити 
ділянки сигналу, що відповідають паузам. Ця задача сама по собі є нетривіальною, 
особливо для сигналів з високим чи нестаціонарним рівнем сторонніх шумів. Більшість 
підходів до визначення пауз базуються на вимірюванні рівня енергії сигналу в ділянці, 
що обробляється, і порівнянні отриманого рівня з певним чином заданим пороговим 
значенням. Відрізняються різні підходи між собою тим, яким чином вимірюється енергія 
сигналу і яким чином задається порогове значення. Як міра енергії використовуються 
логарифмічна енергія сигналу |8|, кількість перетинів нуля (2его Стов85іпо, Каге) |З), дис- 
персія вимірів сигналу |10) чи комбінації цих метрик. 

Для адаптації до нестаціонарного рівня шуму були запропоновані адаптивні 
підходи до визначення порогових значень |10|. Запропонований нижче підхід є розвитком 
адаптивного методу визначення пауз, запропонованого в |10|, в якому як міра енергії 
використовується логарифмічна енергія ділянки сигналу: 


М 
Е «10106 3х (1) 


ї-і 
де х, - значення сигналу, і - 11,2,...МУ, М - довжина вікна, що аналізується. 


Виміри енергії для послідовно розташованих вікон згладжуються методом медіан- 
ного згладження 5 порядку (11). Це дозволяє уникнути впливу випадкових збурень у 
сигналі, що, як правило, пов'язані зі сторонніми шумами. 

Для визначення порогового значення використовується інформація про попередні 10 
с звучання сигналу (покладаємо, що на ділянці в 10 с буде принаймні одна пауза). Для ви- 
значення порогу використовується інформація про максимальне і мінімальне значення 
енергії сигналу на ділянці в 10 с, і рішення про те, що певне вікно відповідає паузі, робиться 
за наступним критерієм: 


Е«Е, вно 02. (2) 


тах | Утіп 
тут Е - рівень енергії сигналу у поточному вікні, Є, , - мінімальний рівень енергії 


на ділянці, Є, ,, - Максимальний рівень енергії на ділянці в 10 с. 
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Для пошуку пауз використовуються вікна тривалістю 20 ме і перетинаються між 
собою на 10 ме. Вікна з паузами, що розташовані підряд одне за одним, об'єднуються в 
одну паузу. При визначенні пауз додаткові обмеження також накладаються на мінімальну 
тривалість паузи, що дозволяє виключити занадто короткі вікна з невеликим рівнем 
енергії. 


Визначення позиції зміни диктора 


Задача визначення, чи є в околі певної паузи зміна диктора, формулюється як задача 
перевірки гіпотези, що порівнює дві гіпотези: Н, - про те, що зміна диктора в околі даної 
паузи відсутня, і Н, - про те, що в околі даної паузи відбувається зміна диктора. Покла- 
демо, що величини, з яких складаються множини Х і У, є незалежними і однаково 
розподіленими. Тоді параметри нормального розподілу б), для множини /, яка є 


об'єднанням множин Х і У, можуть бути оцінені за допомогою методу максимальної 
правдоподібності. Логарифмічне відношення правдоподібності для множини спостережень 
2 загіпотези Н, задається таким співвідношенням: 


м. М, 
1,2 У Лов р(х, |9,)- У Лов р(у, |9,), 0) 
їі 


ізі 
де р(х| 9) - ймовірність того, що х справджується за умови 9. 
Для перевірки гіпотези Н, обраховуються параметри нормальних розподілів інди- 
відуальні для наборів спостережень Х 1 У, які відповідно позначаються як 9, 1 9,. 
При цьому логарифмічне відношення правдоподібності запишеться як: 


М, М, 
1 - УЛов ро, | 9.) У Пов ро» |9у). (4) 
їзі ізі 
Звичайна міра відмінності між множинами в такому випадку задається як 
арт: (5) 


Оскільки параметри правдоподібності для гіпотези Н, визначаються окремо для 
множин Х 1 У, звідси складові частини в правій частині (4) завжди більше відповідних 
складових частин (5), то /, 2 І, 1 4, 20. Більш надійною мірою відмінності між множи- 
нами, проте, є міра, що базується на Байєсівському інформаційному критерії, де значення 
міри коректується відповідно до кількості елементів в кожній з множин, що порівню- 
ються. Міра відмінності, що базується на Байєсівському інформаційному критерії, 
обраховується за формулою: 


415 АКЮовМ, (6) 


де ДК - М, - М, 4 - це параметр, який теоретично має бути рівним 1,0. Причому 


такий критерій теоретично дає змогу уникнути визначення порогу для міри відмінності. 
За такого підходу позиції зміни диктора будуть визначатися як точки, в яких функція 
різниці між множинами набуває локального максимуму. Проте на практиці відсутність 
порогового значення не завжди дає оптимальний результат. Як показали експерименти, 
кількість помилково визначених змін диктора навіть на досить якісному сигналі є 
достатньо високою при різних значеннях А. Тому вважаємо, що для прийняття рішення 


про наявність зміни диктора в околі певної паузи необхідно, щоби значення міри від- 
мінності між множинами характеристичних векторів перевищувало певний поріг, який 
підбирається вручну для конкретного сигналу. 


170 «Искусственньй интеллект» 372011 


Сегментація мовних голосовихсигналів за ознакою зміни диктора 3 К 


Як характеристичні вектори, з яких складаються множини Х 1 У, обрано вектори, 
що складаються з 13 коефіцієнтів мел-кепстр 1 пітчу як 14 виміру. Пітч є характеристич- 
ною ознакою, що досить точно передає статеві та вікові відмінності між голосами дикто- 
рів. При цьому характеристичні ознаки обраховуються по ділянках сигналу тривалістю 30 
ме, що перетинаються між собою на 10 ме, до яких застосовані віконні функції Хеннінга. 
Слід зауважити, що для визначення характеристичних ознак, що відповідають дикторам, 
доцільно використовувати аналітичні вікна більшої тривалості, ніж зазвичай використо- 
вуються для розпізнавання мовних голосових сигналів, оскільки характеристики, що від- 
різняють дикторів, є більш «розтягнутими» в часі. До того ж такий підхід дозволяє дещо 
скоротити кількість необхідних обчислень. 

Експериментально було також встановлено, що найбільшу кількість інформації про 
диктора несуть ділянки сигналу з більшою логарифмічною енергією. Тому при зна- 
ходженні позицій зміни диктора до розрахунку беруться лише ділянки, в яких логариф- 
мічна енергія перевищує певний поріг. Для експериментів, що проводилися в рамках 
даної роботи, використовувався поріг в 40 дБ. Це дозволило не лише досить суттєво 
скоротити кількість необхідних обчислень, але й підвищити точність визначення по- 
зицій зміни диктора за рахунок того, що ділянки з малим рівнем енергії часто несуть 
«зайву» інформацію, яка не характеризує диктора (як правило, це сторонні шуми). 

Границі ділянок сигналу, що порівнюється, визначаються таким чином: 

1. Множина Х складається з характеристичних векторів, обчислених для ділянок 
сигналу між попередньою зміною диктора і початком поточної паузи. Якщо кількість 
елементів в множині Х становить більше 200, вектори, що відповідають більш раннім ді- 
лянкам сигналу, виключаються з розрахунків, для того щоб тримати кількість обчислень, 
що необхідно робити на кожному кроці алгоритму, в раціональних межах. 

2. Множина У складається з характеристичних векторів, обрахованих на ділянці 
сигналу між кінцем поточної паузи та початком наступної паузи. 

Схематично алгоритм сегментації звукового сигналу за ознакою зміни диктора 


подано на рис. 2. 
( Початок ) 
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Рисунок 2 - Алгоритм сегментації сигналу за ознакою зміни диктора 
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Експериментальна перевірка 


Описані вище алгоритми визначення пауз і сегментації сигналу за ознакою зміни 
диктора було реалізовано в системі автоматизованого розподіленого стенографування, 
де сегментація сигналу для розподілення його між операторами-стенографістами здій- 
снюється за максимальною тривалістю сегмента і ознакою зміни диктора. 

Для перевірки алгоритму використовувався запис радіоінтерв'ю, з кількістю змін 
диктора 27, загальною кількістю пауз, за якими проводилась перевірка зміни диктора, - 
298, трьома дикторами, присутніми у записі. 

Для перевірки роботи підходу використовувалися метрики, запропоновані в 
| 71, які враховують кількість помилок першого і другого роду: 
кількість коректно визначених змін 


РЕС- Заря 5 (7) 
загальна кількість знайдених змін 
кількість коректно визначених змін 
ВСІ - Р ТОВЕО -. (8) 
загальна кількість змін, присутніх в сигналі 
Загальна метрика для порівняння задається як: 
Е 2х РКС х КСІ, (9) 
РАЕС З КСІ, 


Така метрика знаходиться в межах між 0 і 1, чим вище її значення, тим краще 
точність визначення позицій змін диктора. 

Результати експерименту наведено в табл. 1. Для порівняння поруч наводяться 
результати, отримані за допомогою підходу, описаного в |6|. 


Таблиця 1 - Результати експериментальної перевірки 


Підхід РЕС ВСІ, Е 
Запропонований 0,44 0,77 0,56 
Медіана відстаней 0,19 0,77 0,30 


В обох підходах є достатньо великою кількість помилково визначених змін диктора, 
що показує відносно невелике значення параметра РЕС. Проте в запропонованому під- 
ході кількість помилково визначених змін диктора є значно меншою. Причина помилково 
визначених пауз, як правило, полягає в тому, що підібрати поріг, необхідний для корект- 
ної роботи алгоритму, досить складно: занадто низький поріг призводить до великої 
кількості помилково визначених змін, а занадто високий -- до високої кількості пропуще- 
них змін диктора. 

Деякі зміни диктора в запропонованому підході були також пропущені тому, 
що при визначенні параметрів нормального розподілу методом максимальної правдо- 
подібності, коваріаційна матриця, яка була отримана в результаті оцінок, не була 
додатньо визначеною. 


Висновки 


Запропонований підхід дозволяє достатньо точно визначати зміни дикторів у мов- 
ному голосовому сигналі 1 виконувати сегментацію сигналу за ознакою зміни диктора. 
За рахунок того, що для при визначенні характеристичних ознак не враховуються 
сегменти з низькою логарифмічною енергією 1 пропускаються паузи, вдалося уникнути 
негативного впливу сторонніх шумів і малоінформативних ділянок сигналу на точність 
визначення характеристичних ознак диктора. 

Подальший розвиток запропонованого підходу має бути направлений на авто- 
матичне визначення порогових значень для міри відмінності між множинами характе- 
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ристичних векторів, чи позбавлення від необхідності мати порогове значення взагалі, 1 
на вирішення проблеми з коваріаційними матрицями, які отримуються в результаті оцінок 
за методом максимальної правдоподібності, що не є додатньо визначеними. 
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